讓格書寫以及台華互譯初探 (LangGeh Orthography and an Initial Study of Statistical Translation Between Taiwanese and Mandarin) [In Chinese]
نویسندگان
چکیده
LangGeh orthography is a new writing style proposed by [1]. For Han family languages such Taiwanese or Mandarin that uses Chinese character, LangGeh proposes writing with spaces in-between, using simple short phrase as a unit. This is in contrast to word-based orthography in English and sentence-based orthography in traditional Mandarin. Easy to add spaces, LangGeh has the advangtages of reducing ambiguity, easier to read, and easier for text processing in Chinese characters. Using the LangGeh orthography, we produce a parallel corpus in Taiwanese and Madarin, about 150 thousand characters each. We then explore the extraction of “phrase dictionary” from the parallel corpus, and begin the study of statistical translation between Taiwanese and Mandarin[7][8]. 關鍵詞〆讓格書寫、 翻譯詞組、 詞組典、 統計式翻譯、 台語、 華語
منابع مشابه
從語域及借詞觀點探討台語文寫作風格 (Discussion on Taiwanese Writing Style from The Viewpoint of Register and Loanword) [In Chinese]
متن کامل
華台雙語發音變異性之語音辨識研究及PDA之應用 (The study of pronunciation variations in Mandarin and Taiwanese and its application in PDA) [In Chinese]
本篇論文提出一種方法來有效的處理華台雙語同時存在於同一句話的語音辨識 問題。主要的核心可分為三部分;一.聲學模型:此部分是用一個共同的標音系統,使相同 的發音的標音在不同語言上能夠做語料的分享,而且在語音特徵擷取上也加上聲調的參 數,以減少華字與音節間的混淆。二.發音模型:此部分是結合了以專家知識為主的發音辭 典與實際上語料分析結果而成變異發音,前者是統計了的華台雙語辭典的華字對音節發音 機率,找出一個華字在辭典上所有可能的發音;而後者是將音節的辨識結果做成發音對華 字的混淆機率。第三部份是將華字直接嵌入在語言模型中,作為搜尋的節點。之後用唐詩 300首的實驗,其針對目前台灣地區華台夾雜的語句,以及發音變異性的問題,都能確實降 低一成五到兩成的漢字相對錯誤率。最後將此技術移植到PDA上,也做了相關的應用。
متن کامل以共現資訊為基礎增進中學英漢翻譯試題與解答之詞彙對列 (Using Co-Occurrence Information to Improve Chinese-English Word Alignment in Translation Test Items for High School Students) [In Chinese]
本文探討我國中學程度翻譯試題的中文試題與英文解答的詞彙對列問題。我們先利用漢 英字典作為基礎,找尋互為翻譯的漢英詞對;然後利用未被對列的剩餘詞彙之間的共現 關係,以五種過去在文獻中探索過的計分方式,來尋找與界定更多的互譯詞彙組合。在 超過 17,000 道試題為基礎的測試中,我們以人工檢視計分機制給予高分的部分對列詞 彙的正確性。實驗結果顯示,進一步利用未對列詞彙的方法,可以把對列成果的 F measure 從 76.9%提高到 83.7%。 Abstract We study the word alignment between the Chinese problems and the English answers for the English-Chinese translation tests at the high school level in Taiwan. After...
متن کاملRealizing Customizeable Animations in a Multi-user Virtual En- vironment using OSGi Framework
多人虛擬環境(Multi-user Virtual Environment) 系統的應用越來越多,而系統的延展性及內容的豐 富性是未來 3D 內容服務能否普及的關鍵之一。 IMNET 是一套具延展性的多人虛擬環境系統,可 在編譯或執行期間,整合不同的動畫元件模組,增 加 系 統 的 彈 性 [8] 。 使 用 者 可 以 透 過 XAML(eXtensible Animation Modeling Language)語 言的設計,產生虛擬角色的動畫;然而,對於高階 指令的實現,目前多僅能由系統提供有限的選擇, 而無法由使用者自行設計。本論文的目的在 IMNET 的平台上,設計一個能由使用者自行擴充動畫標籤 及實現此標籤之動畫元件的機制。當使用者開發一 個新的動作時,可以同時讓所有線上使用者接受動 作的擴充,而不需要重新啟動 IMNET 系統,或是 手動的安裝。本論文是以 OSGi F...
متن کامل以語言模型判斷學習者文句流暢度(Analyzing Learners 'Writing Fluency Based on Language Model)[In Chinese]
由於現代科技以及 3C 產品的普及,使得孩子頻繁的接觸電視、網路、手機...等,因此 容易缺乏與人之間互動、溝通以及情感的表達,相對的,學生寫的作文常常是以流水帳 交代經過,有的學校甚至不考作文,但隨著教育政策的變動,國中教育會考加入了作文 評量的項目,使的作文再度受到學生及家長的重視。可是受限於學校教學時數,作文較 弱的學生容易缺少補救的機會。我們認為未來自學作文以及在家練習,可以藉由自動化 的作文教學系統輔助。而本系統開發作文教學系統之句子流暢度偵測,經由系統回饋的 診斷結果可以讓學生對詞句組合的理解力有所提升,幫助學生寫出較流暢的句子,藉此 提高他們的作文分數。系統所依賴的 N-gram 語言模型,它的特性是計算字詞間組合的 機率,機率越高的話字詞組合的正確性越高也就是越流暢,而語言模型效果相當依賴大 型的訓練語料,這是語言模型然能待克服的缺點,例如資料稀疏(Data spar...
متن کامل